簡單的說法就是從網頁中,抓取自己感興趣的區塊資料,進一步的清理資料,整理成可視性的圖表做解讀。
一般來說
這樣看似一個動作,電腦的背後其實與伺服器做了無數個連線,進而呈現在瀏覽器端的完整頁面。
瀏覽器、伺服器、連線...等等,這些專有名詞聽不懂沒關係,我們換個方式來說說看。
想像成,
我們撥打了一通電話給 YAHOO!電影 的公司,想知道本周的新片?
電影公司內部可能會立刻請
影像部的同仁,將本周新片的電影海報 彙整後打通電話回報給您
文字編輯部的同仁,將本周新片的內容大綱 彙整後打通電話回報給您
社群小編的同仁,將本周新片的網友期待度 彙整後打通電話回報給您
...
匯集了各個部門的資料,
也就成了我們現在在網頁上看到的圖文並茂排版下的頁面
瀏覽器 就想成 這台電腦打開的這個 網頁
伺服器 就想成 YAHOO!電影 這間公司
無數個連線 就想成必須分別向 各個部門 要資料
所以一個網頁是由多個區塊資料拼湊下組合而成,若我們只想抓取某部分的資料,
我們就必須要知道,感興趣的這區塊資料是由哪個部門將資料蒐集而成的。
所以當我只想知道本周新片的網友期待度評價時,
只要找到YAHOO!電影公司的社群小編部門的電話連線,就可以得到自己感興趣的這區塊資料了。
爬蟲就是從網頁中的眾多連線中,找到那一條存放著自己感興趣資料的那一條連線。